2-B06 透視投影を考慮した単眼カメラからの全身・手関節3次元推定再考
https://scrapbox.io/files/6752bd7629f040a770929436.png
2-B06 透視投影を考慮した単眼カメラからの全身・手関節3次元推定再考
山本 和彦(ヤマハ株式会社)
機械学習技術の発展により, 単眼RGBカメラ画像からのみで人の全身, または手関節の高精度の3次元位置推定が可能となってきている. 一般的にこれらは全身/手のバウンディングボックス検出とその中での詳細な関節位置推定の2段階でおこなわれる. つまり, 画像のどこに対象が写っていようとも画像中心にあるものとして推定される. しかし, 撮像面に透視投影されることを考えると, カメラの光軸から離れるほど, つまり画像の端にいくほど, 奥行きの差は画像中心方向への変位へと変換される. そうしたバウンディングボックスを切り抜くと, 関節は実際より横倒しになって潰れた見た目の画像となっており, これを正面に対象が写っているものとして推定しても誤った結果になってしまう. これを解決するため, 我々は機械学習が解釈するバウンディングボックス内の関節が実際には透視投影されたより広い範囲の画像から切り取られたものだと再解釈することによって, 既存モデルであっても追加学習することなく精度を向上させられることを発見した. 本稿では, 既存モデルの再評価を通して従来の姿勢推定での深度評価, 学習方法における問題点を浮き彫りにする.